Algoritmos basados en medias: cota inferior y regret
Descubre la primera cota inferior para algoritmos basados en medias en bandidos con horizonte desconocido. Nuevos algoritmos competitivos y su relación con no-regret.
Descubre la primera cota inferior para algoritmos basados en medias en bandidos con horizonte desconocido. Nuevos algoritmos competitivos y su relación con no-regret.
Descubre nuevos algoritmos para MDPs con transiciones adversariales que logran regret sublineal. Basados en medidas de ocupación condicionadas.